AGI_AND_RL Telegram Group Telegram Web

Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже. Но и без него модель обходит стандартную модель с включенным ризонингом. А самое главное, можно запустить на CPU и не страдать от низкой скорости TPS (Token per second).

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/QVikhr-3-1.7B-Instruction-noreasoning-GGUF
⚖️ Лицензия: apache-2.0

👥 Авторы: @LakoMoorDev @nlpwanderer

1.6K views15:03

Агенты ИИ | AGI_and_RL

Чот призадумался с обновой R1 от дипсика, а наступят ли времена когда опенсурсные модельки будут обходить закрытые?
Что думаете?

Условно я NewCompanyName, хочу плотно прохайпить. У меня есть некоторые ресурсы + люди + возможности сделать жесткую модель которая лучше прям всех. Бахну опенсурс который накажет всех остальных.

1.9K viewsedited 18:04

Агенты ИИ | AGI_and_RL

Forwarded from человек наук

Прочитал безумно интересную статью о новом алгоритме для перемножения матрицы на неё же, но перевёрнутую – транспонированную. Если вы когда-либо применяли PCA (метод главных компонент) или линейную регрессию, то там используется эта операция. Как и ещё в куче мест

Не без помощи ИИ авторы нашли алгоритм, который делает это быстрее! Матрицы можно перемножать эффективнее, чем так как вас учили в университете – это показал Штрассен ещё в прошлом веке. А некоторые частные случаи могут быть решены ещё быстрее. Например, для матриц специального размера это совсем недавно показали в Дипмайнде. А перемножение матрицы на её транспонированную обладает симметричной структурой, которой можно воспользоваться для ещё более эффективного алгоритма

Однако в комментариях к посту о статье жаловались, что авторы не провели эксперименты на GPU – видеокартах. А это как раз самое интересное, все самые тяжёлые вычисления (как, например, тренировка больших языковых моделей) происходят на них. Мне захотелось потратить выходные, чтобы написать этот алгоритм для видеокарт, а заодно стряхнуть пыль со знаний C++ и разобраться как вообще выглядит такое программирование

Три недели спустя алгоритм был наконец написан, а баги отловлены. В процессе мне удалось его даже улучшить. Для вычисления результата авторы вводят 47 дополнительных переменных. На видеокартах заводить дополнительные переменные и выделять память под них – дорого, важно избежать каждой лишней операции. И мне удалось вместить все вычисления в память результирующей матрицы. Выделять дополнительную не нужно совсем!

К моему удивлению, готовый алгоритм заработал медленнее, чем стандартный из библиотеки от NVIDIA. Пусть в ней и не оптимальный алгоритм, куча инженеров и миллионы долларов, потраченных на их работу, привели к тому, что он отполирован донельзя и работает лучше, чем теоретически более быстрый. Впрочем, нам удалось догнать и перегнать стандартный алгоритм на больших матрицах. И это с минимумом оптимизаций! Если написать более низкоуровневый алгоритм на уровне ядер, вычисления станут ещё быстрее

Если вам близка эта тема, загляните в репозиторий: https://github.com/VladimirShitov/RTXX-CUDA . Звёздочки (а тем более улучшения) крайне приветствуются!

#программирование@chelovek_nauk

arXiv.org

$XX^{t}$ Can Be Faster

We present RXTX, a new algorithm for computing the product of matrix by its transpose $XX^{t}$ for $X\in \mathbb{R}^{n\times m}$. RXTX uses $5\%$ fewer multiplications and $5\%$ fewer operations...

1.7K views12:14

Агенты ИИ | AGI_and_RL

В нвидии не смогли принять что ллмный РЛ ВСЁ и поресечили на тему того, чтобы RL не схлопывал pass@k у базовой модельки.
Что предлагают - тюнить 2к шагов и применяют модификации из статьи DAPO (асимметричные клипы 0.8, 1.4) учили с высокой температурой 1.2 с чтобы энтропия не сильно падала (сохранять как можно дольше эксплорейшен у ллмки) + во время трена динамически подбирают сложность задачки (отсекают задачки которые моделька всегда решает и которые не решает во время трена) + использовали KL штраф межд реф и полиси (пишут, что все же KL лучше не убирать, как рекомендуют в некоторых статьях).

Тюнили дипсик 1.5 дистил на искусственных логических задачках и матеше + кодовых из уже известных датасетов.

В результате пишут что увидели генерализацию на задачку, которой не было в трейне и которую базовая моделька совсем не могла решать. + генерализовалась на графовых задачках на бОльшие размеры графа.
Сравнивали базовую модельку с промежуточным и финальным чекпоинтами:
- были задачки где pass@k слегка схлопнулся (авторы считают, что моделька уже видело слишком много таких задач и дотрен не помогает)
- плато (на промежуточном чекпоенте pass@1 - pass@128 улучшились к промежуточному чекпоинту и на финальном почти не изменились)
- pass@k улучшался до конца с рлем.

Но правда трен такой много ресурсов требует (пишут что 16к гпу часов на 4 x 8xNVIDIA-H100-80GB для 1.5B)

Крч надо учиться делать правильный РЛ (и пробовать скейлить).

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
https://arxiv.org/abs/2505.24864
https://www.alphaxiv.org/ru/overview/2505.24864

PS кстати заходите в https://www.tg-me.com/researchim там собираем инфу по ИИшечке и проектики делаем (в том числе по генерации логических задачек синтетических)

2.1K views18:06

Агенты ИИ | AGI_and_RL

Применение_искусственного_интеллекта_в_биологии_итоги_2023–2025.pdf

1.6 MB

небольшой чатгптшный ресечик по ии в биологии
Прям понравился

2.6K views15:18

Агенты ИИ | AGI_and_RL

Channel allows Direct Messages for 🕺

🕺

🕺 each

Please open Telegram to view this post

VIEW IN TELEGRAM

1.6K views06:39

Агенты ИИ | AGI_and_RL

Кстати, там же курсор до 1.0 версии апдейтнулся.
Background агенты, работа с юпитер ноутбуками, mcpшки, память
(пока ничего из этого толком не потестил, но так пишут)

А так базово пока отличий от 0.5 (предыдущей версии) не увидел. Работает в целом 🎹

https://www.cursor.com/changelog

Please open Telegram to view this post

VIEW IN TELEGRAM

1.6K views13:49

Агенты ИИ | AGI_and_RL

😏

🥰Gemini🥰

🥳

Я гений, но потом

Please open Telegram to view this post

VIEW IN TELEGRAM

1.5K viewsedited 12:13

Агенты ИИ | AGI_and_RL

🐺

Please open Telegram to view this post

VIEW IN TELEGRAM

1.6K views14:34

Агенты ИИ | AGI_and_RL

Еще парочка свежих чатгпт ресечей

ии + финтех
https://github.com/researchim-ai/state-of-ai/blob/main/AI_Fintech_research.md

ии + агротех
https://github.com/researchim-ai/state-of-ai/blob/main/AI_AgriTech_research.md

Там и другие в репозитории имеются

И не забывайте заглядывать в https://www.tg-me.com/researchim где собираем все по ИИшечке и проектики делаем

GitHub

state-of-ai/AI_Fintech_research.md at main · researchim-ai/state-of-ai

По возможности актуальная информация по ИИ + ресерчи от ChatGPT - researchim-ai/state-of-ai

1.7K views16:11

Агенты ИИ | AGI_and_RL

Понятно

https://dual-process.github.io/

1.6K viewsedited 12:52

Агенты ИИ | AGI_and_RL

Выступление Ричарда Саттона про эру экспиренса и его видением будущего иишки и рля
https://www.youtube.com/live/f9KDMFZqu_Y

YouTube

NUS120 Distinguished Speaker Series | Professor Richard Sutton

About NUS120
The National University of Singapore celebrates its 120th anniversary in 2025, commemorating a legacy, forged over generations, of excellence, innovation and service.

As Singapore’s first higher education institution and its flagship university…

1.5K views12:20

Агенты ИИ | AGI_and_RL

А вот и опенсурс ризонер от Мистраля

https://huggingface.co/mistralai/Magistral-Small-2506
https://huggingface.co/mistralai/Magistral-Small-2506_gguf

Макс контекст 128к, но пишут что после ~~вархаммер~~ 40к может начать тупить

huggingface.co

mistralai/Magistral-Small-2506_gguf · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

7.2K viewsedited 15:24

Агенты ИИ | AGI_and_RL

Нам предлагают не просто предсказывать следующий токен, а еще поразмышлять перед этим. Reinforced Pre-Training (RPT)

Есть последовательность токенов x_{<t}, моделька генерит рассуждение (цепочку токенов) c_t и еще конечную цепочку (там может быть один или несколько токенов) y_t.
Смотрим, чтобы y_t было точным префиксом истинного продолжения из данных. Если да, то ревард 1, если нет, то 0.

В качестве датасета для тюна взяли OmniMATH (4.4к семплов с ответами). Нарезали на контекст и продолжения с использованием фильтра по энтропии прогоняя через прокси модельку R1 дистил 1.5B модельку.
Как я понимаю: берут каждый пример из трейна, прогоняют через прокси 1.5B модельку, для каждого следующего токена берут топ 16 самых вероятных, если энтропия на них больше порога (его не уточнили), то здесь будут тюнить. (наверное делают перенормировку по топ 16 токенам и нормализацию по энтропии и сверяют с порогом)

На этом тюнили Deepseek R1 Distill 14B с GRPO.

Авторы пишут что моделька потюненая RPT больше использует слов присущим построению гипотез (probably, maybe, assume) и логическому выводу (therefore, logically, conclude), чем базовая моделька. При этом меньше раскладывает задачи на подзадачи.
Вероятно потому, что обычно в ризонинге учим раскладывать сложные задачи на простые шаги. А при RPT видать учится "рассуждать" наперед.

Ну и такой подход вроде докидывает.
Так понял. В целом показалось интересным. Увидим будут ли раскручивать подход и больше экспериментов надо

Reinforcement Pre-Training
https://arxiv.org/abs/2506.08007
https://www.alphaxiv.org/ru/overview/2506.08007

PS кстати заходите в https://www.tg-me.com/researchim мы там ИИнфу собираем и теперь уже много всяких проектиков делаем

997 views10:51

Агенты ИИ | AGI_and_RL

Биологические на месте?
Там ребята выложили опенсурсную биомодельку Boltz-2

Т.к. я не шарю, то спросил у чатгпт по статейке что же делает:

Boltz-2 — это «универсальный движок» именно для задач структурной биологии и дизайна лекарств

Что делает?

- Строит форму белка, РНК/ДНК и лигандов в одном комплексе.
- Сразу оценивает силу связывания (Ki/Kd/IC50-подобную) — т.е. подсказывает, какая молекула будет держаться крепче.
- Всё это за ~20 с на одной видеокарте, тогда как классический FEP тратит часы-дни. 

Чем полезен на практике?
- Быстрый фильтр миллионов соединений в виртуальном скрининге.
- Точная ранжировка близких аналогов на стадии hit-to-lead.
- Генерация новых молекул вместе с GFlowNet — модель сама предлагает, что синтезировать.

Boltz-2 — мощный, быстрый и открытый инструмент именно для 3-D структур и связывания

В целом Boltz-2 это альтернатива AlphaFold 3.
но веса у AF3 закрыты и надо просить по запросу к Гуглу-Дипмаинду.
А у Больтза все открытое.

Можно хорошо почитать тут
https://rowansci.com/blog/boltz2-faq

И к ней уже GUI прикрутили с инструкцией по запуску тут: https://proteinlanguagemodel.com/blog/how_to_run_boltz2_locally

Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction
https://cdn.prod.website-files.com/68404fd075dba49e58331ad9/6842ee1285b9af247ac5a122_boltz2.pdf

пост
https://boltz.bio/boltz2

код для запуска
https://github.com/jwohlwend/boltz

моделька
https://huggingface.co/boltz-community/boltz-2

PS собираем ИИнформацию и проекты делаем в https://www.tg-me.com/researchim

6.9K viewsedited 14:46

2025/06/13 10:23:31
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>